


# hive  on  spark
        # hive 表示数仓 和 解析引擎 
        # spark 计算引擎 rdd
        # 此时 调 spark rdd 的优化可以，调spark sql就没有任何用

# spark on hive
        # hive 近表示 数仓
        # spark ： 解析 + 计算



# 数据清洗：
#     1. 数据字段格式：确定字段应该有的格式类型，如：日期、数字、文本，按照字段实际格式转换
#     2. 清洗文本格式：空格、特殊字符、标点符号、清洗掉html标签、大小写、识别转换html
#     3. 数据类型转换：数据在传输过程中会发生变化，需要对它转换，文本日期转日期，字符串数字转数字，bool转0、1
#     4. json 解析，一个json串解析成几个字段


# 更新策略：
#     1. 数据量 巨大增量，小全量
#     2. 更新频率 低频全量，高频增量
#     3. 数据变化量（变化太大大于30%）
#     4. 系统资源 资源受限增量，

# 面试相关
# https://www.bilibili.com/video/BV1zxcBeYEUV/?spm_id_from=333.337.search-card.all.click&vd_source=55a70ceabdb66cf8fe463891b9b7b436
# 性能优化
# https://www.bilibili.com/video/BV1QY411x7xL/?spm_id_from=333.788.videopod.episodes&vd_source=55a70ceabdb66cf8fe463891b9b7b436&p=25